Huellas de Convergencia por Capas para la Detección de Mal Comportamiento en Tiempo de Ejecución en Modelos de Lenguaje Grande
<meta name=description content=Detecta comportamientos no deseados en modelos de lenguaje grandes mediante huellas de convergencia por capas. Técnica eficaz para identificar anomalías en LLMs.>